Extensive empirical evidence demonstrates that conditional generative models are easier to train and perform better than unconditional ones by exploiting the labels of data. So do score-based diffusion models. In this paper, we analyze the phenomenon formally and identify that the key of conditional learning is to partition the data properly. Inspired by the analyses, we propose self-conditioned diffusion models (SCDM), which is trained conditioned on indices clustered by the k-means algorithm on the features extracted by a model pre-trained in a self-supervised manner. SCDM significantly improves the unconditional model across various datasets and achieves a record-breaking FID of 3.94 on ImageNet 64x64 without labels. Besides, SCDM achieves a slightly better FID than the corresponding conditional model on CIFAR10.
translated by 谷歌翻译
视觉变压器(VIT)在包括低水平的视觉任务中显示了有望,而U-NET在基于分数的扩散模型中仍然占主导地位。在本文中,我们对扩散模型中的基于VIT的体系结构进行了系统的经验研究。我们的结果表明,在VIT中添加超长的跳过连接(例如U-NET)对于扩散模型至关重要。新的VIT体系结构以及其他改进被称为U-Vit。在几个流行的视觉数据集中,U-Vit可以将竞争性生成结果达到SOTA U-NET,同时需要大量的参数和计算,如果不是更少。
translated by 谷歌翻译
深生成模型(DGM)是数据浏览的。从本质上讲,这是因为在有限数据上学习一个复杂的模型,遭受了较大的差异和容易过度的折磨。受\ emph {偏见 - 变化困境}的启发,我们提出了\ emph {正则化的深生成模型}(reg-dgm),该模型}(reg-dgm)利用了不可转移的预训练模型来减少具有有限数据的生成模型的变异。正式地,Reg-DGM优化了数据分布与DGM之间一定差异的加权总和,以及预先训练的模型W.R.T.定义的能量函数的期望。 DGM。从理论上讲,我们表征了Reg-DGM在非参数环境中全球最小值的存在和独特性,并严格证明Reg-DGM W.R.T.的统计益处。在一个简单而代表性的高斯拟合示例中,平均误差和预期风险。从经验上讲,在Reg-DGM中指定DGM和预训练的模型是非常灵活的。尤其是,使用RESNET-18分类器在ImageNet上进行了预先培训和数据依赖性能量功能,Reg-DGM始终在几个基准上改善了强大的DGM的生成性能,包括StyleGAN2和ADA在几个基准上,具有有限的数据,并为国家取得了竞争性的结果 - 艺术方法。
translated by 谷歌翻译
基于得分的扩散生成模型(SDGM)已实现了SOTA FID导致未配对的图像到图像翻译(I2i)。但是,我们注意到现有方法完全忽略了源域中的培训数据,从而导致了未配对I2i的次优解决方案。为此,我们提出了能源引导的随机微分方程(EGSDE),该方程采用了在源和目标域上鉴定的能量函数,以指导鉴定的SDE推理过程,以实现现实和忠实的不成对的I2i。在两个功能提取器的基础上,我们仔细设计了能量功能,以鼓励传输的图像保留独立于域的特征和丢弃域特异性域。此外,我们提供了EGSDE作为专家的产品的替代解释,其中三位专家(对应于SDE和两个功能提取器)中的每一个都仅有助于忠诚或现实主义。从经验上讲,我们将EGSDE与三个公认的未配对的I2I任务在四个指标下进行的大型基线进行了比较。 EGSDE不仅在几乎所有设置中都始终优于现有的基于SDGMS的方法,而且还取得了SOTA现实主义的结果​​(例如,猫在狗到狗中的65.82的FID为65.82,而在AFHQ上野生对狗的FID为59.75),而无需损害忠实的表现。
translated by 谷歌翻译
通过将熵编解码器应用于学习的数据分布,神经压缩机在压缩比方面显着优于传统编解码器。但是,神经网络的高推断潜伏期阻碍了实际应用中神经压缩机的部署。在这项工作中,我们提出了仅整数离散流(IODF),这是一种具有仅整数算术的有效神经压缩机。我们的工作建立在整数离散流的基础上,该流程包括离散随机变量之间的可逆转换。我们提出了基于8位量化的纯整数算术的有效可逆转换。我们的可逆转换配备了可学习的二进制门,以在推理过程中去除冗余过滤器。我们在GPU上使用Tensorrt部署IODF,与现有最快的神经压缩机相比,达到10倍推理的速度,同时保留了Imagenet32和Imagenet64上的高压缩率。
translated by 谷歌翻译
基于分数的生成模型在发电质量和可能性方面具有出色的性能。他们通过将参数化的分数网络与一阶数据得分功能匹配来建模数据分布。分数网络可用于定义ODE(“基于得分的扩散ode”),以进行精确的似然评估。但是,颂歌的可能性与得分匹配目标之间的关系尚不清楚。在这项工作中,我们证明,匹配一阶得分不足以通过在最大可能性和分数匹配目标之间显示差距来最大化ode的可能性。为了填补这一空白,我们表明,可以通过控制第一,第二和三阶得分匹配错误来界定颂歌的负可能性;我们进一步提出了一种新型的高阶denoising评分匹配方法,以实现基于得分的扩散ODE的最大似然训练。我们的算法确保高阶匹配误差受训练错误和较低级错误的限制。我们从经验上观察到,通过高阶匹配,基于得分的扩散频率在合成数据和CIFAR-10上都具有更好的可能性,同时保留了高生成质量。
translated by 谷歌翻译
扩散概率模型(DPM)是一类强大的深层生成模型(DGM)。尽管取得了成功,但在整个时间段上的迭代生成过程效率要比其他DGMS(例如gans)效率要低得多。因此,时间步长上的生成性能至关重要,这受到DPMS中协方差设计的极大影响。在这项工作中,我们考虑对角和完整的协方差,以提高DPM的表现力。我们得出此类协方差的最佳结果,然后在DPM的平均值不完善时将其纠正。最佳和校正后的都可以分解为对噪声功能的条件期望的术语。在此基础上,我们建议通过学习这些条件期望来估计最佳协方差及其校正。我们的方法可以应用于离散时间和连续时间段的DPM。我们在实施计算效率方面考虑了对角协方差。为了进行有效的实际实施,我们采用参数共享方案和两阶段的培训过程。从经验上讲,我们的方法的表现优于可能性结果的各种协方差设计,并提高了样本质量,尤其是在少数时间段上。
translated by 谷歌翻译
扩散概率模型(DPM)是新兴的强大生成模型。尽管具有高质量的生成性能,但DPM仍然遭受缓慢采样的苦难,因为它们通常需要数百或数千个大型神经网络的顺序函数评估(步骤)来绘制样本。可以将来自DPM的采样视为求解相应的扩散普通微分方程(ODE)。在这项工作中,我们提出了扩散ODE的溶液的精确表述。该公式通过分析计算解决方案的线性部分,而不是将所有术语留给先前工作中采用的黑盒ode求解器。通过应用可变化的更改,可以将解决方案等效地简化为神经网络的指数加权积分。根据我们的公式,我们提出了DPM-Solver,这是一种通过收敛顺序保证的快速专用高阶求解器。 DPM溶剂适用于离散时间和连续时间DPM,而无需进行任何进一步的培训。实验结果表明,DPM-Solver可以在各种数据集上的10至20个功能评估中生成高质量的样本。我们在10个功能评估中实现了4.70 FID,在CIFAR10数据集上进行20个功能评估中的2.87 FID,与以前的各种数据集中的先前最先进的无培训样本器相比,$ 4 \ sim 16 \ times $速度。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译